非靶向代谢组学数据分析连载(第零篇引子)
(之前这篇已经发过了,但是题目错误,中间的链接也可能不可用了,此次我更新了链接和修改了题目,明日开始连载:多多捧场哦)
时间慢慢过去了,答应过的事情哭着也要做完,代谢组分析的全套,这次我来送给大家:
目前对于使用代谢组发文的数量是越来越多了,真的是一目了然啊,2018年过半,文章的数量已经和2017年差不多了,势头很猛,早做打算不至于落的被动:
本次我带给大家的是非靶向代谢组学的数据,GC-MS比较老,测的人也比较多,数据库会比较全,当然数据量很大,处理起来会费劲,之前给大家分享的16s扩增子数据,otu.table里面OTU的数量是几千到几万不等,而非靶向代谢组学的数据往往是在几百到几千个峰,这里引用MetaboAnalyst的ppt为大家做一个做一个组学的数据量的简单比较:
Genomics | DNA sequence | 100,000 - 1,000,000 |
Transcriptomics | Gene expression | 10,000 - 100,000 |
Proteomics | Protein expression/ interaction | 1,000 – 10,000 |
Metabolomics | Compound concentration | 100 – 1,000 |
我要分享给大家的GC-TOF-MS非靶向代谢组学的数据的处理过程:
这里我将直接向大家展示在公司测个的数据,也就是在这些操作完成后的数据(这些处理相比之后的数据分析可能并不重要,所以我可能在最后进行分享,或者就不分享了):
使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。
这份数据我在biotree测得,测定于2017年,分析是在今年上半年完成了,但是最为讲解使用数据,我将数据进行了一改动,是目前很新的一份sample供大家学习,打开是这样的;
这里我展示两组的数据,这批数据共展示了708个峰值,这里面的数值表示的是分面积值,第一行id表示的是化合物名称,在这一行这里主要有三种类型,第一种就是化合物的英文名称,第二中就是unknow表示完全不清楚了,第三种是Analyte是似乎有一定的概率匹配上数据库的,但是和数据库中相比相似度不够大,不能确定是什么物质,缺失值表明未能测出来;
另外一份文件就是mapping,这是我处理16s数据延续下来的习惯,其实这样就不必在R中构造一个分组变量了,虽然我们这批数据量很小,对于新手来讲,可能更容易入手;
刚开始我们就需要这两份文件,在之后的分析过程中可能我会持续上传一些文件,还有一些需要使用的文件,我都会及时给出链接,方便大家下载使用;当然相应的R脚本我也会持续放给大家,都是经过多次测试的脚本,大家将文件全部下载下来,使用Rstudio打开脚本,只需要将工作路径更换,即可重现结果;
下面是原始数据的百度网盘链接:
链接:https://pan.baidu.com/s/1iuFm6p_j-AgY4nUSyS1p3w 密码:23r7
如果失效,请及时留言
下面我首先来讲这份数据的产生过程,大家在处理的过程中会更清楚一些:
经历过以上过程,我们就得到了一张表格:
这份处理流程是我在biotree测定,也就是这份数据的处理流程:
代谢物提取
1. 转移样本于2mL EP管中,加入1mL提取液(甲醇水体积比=3:1),再加入10μL
核糖醇,涡旋30s;
2. 加入瓷珠,45Hz研磨仪处理4min,超声5min(冰水浴);
3. 将样本4℃离心,13000rpm离心15min;
4. 小心移取0.75mL上清液于2mL进样瓶(甲烷硅基化的)中;
5. 在真空浓缩器中干燥提取物;
6. 向干燥后的代谢物加入40μL甲氧胺盐试剂(甲氧胺盐酸盐,溶于吡啶20mg/mL),
轻轻混匀后,放入烘箱中80℃孵育30min;
7. 向每个样品中加入50μLBSTFA(含有1% TMCS, v/v),将混合物70℃孵育1.5h;
8. 随机顺序上机检测。
上机检测
Agilent 7890气相色谱-飞行时间质谱联用仪配有Agilent DB-5MS毛细管柱(30m×250μm×0.25μm, J&WScientific, Folsom, CA, USA),GC-TOF-MS具体分析条件如下:
表4. 仪器参数
项目 | 参数 |
进样量(Sample Volume) | 1μL |
分流模式(Front Inlet Mode) | Splitless Mode |
隔垫吹扫流速(Front Inlet Septum Purge Flow) | 3mL min−1 |
载气(Carrier Gas) | Helium |
色谱柱(Column) | DB-5MS(30m×250μm×0.25μm) |
柱流速(Column Flow) | 1mL min−1 |
柱箱升温程序(Oven Temperature Ramp) | 80°C hold on 1min, raised to 290°C at a rate of 10°C min−1, hold on 12min |
前进样口温度(Front Injection Temperature) | 280°C |
传输线温度(Transfer Line Temperature) | 295°C |
离子源温度(Ion Source Temperature) | 220°C |
电离电压(Electron Energy) | -70eV |
质量范围(Mass Range) | m/z:50-600 |
扫描速率(Acquisition Rate) | 10 spectra per second |
溶剂延迟(Solvent Delay) | 8.06min |
数据处理
使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。
在本次实验中共检出了 708 个峰,详细情况请参见数据附表。这里有十二个样品,我们分析只做六个
质量控制
1、过程质控
样品的检测要持续很长时间,尤其是当样本量很大的时候。在检测过程中实时地监控仪器稳定性、信号是否正常就十分重要。及时发现异常,尽早将问题排除,以保证最终采集数据的质量。
① 内标响应情况
由图3可以看到内标核糖醇在样品中的保留时间和峰面积稳定性很好。说明仪器数据采集稳定性很好。
图3. 内标核糖醇的EIC图
① 物质残留情况
通过对空白样品的检测可以考察在检测过程中物质残留情况。从图4中可以看到空白样品中无显著峰检出,说明物质残留控制的很好。不存在样品间的交叉污染。
图4. 空白样品TIC图
以上过程到最后我们得到一张表,都是由公司做的,如果要公司做后续的分析,会更贵,相比之下,我们研究生劳动力这么不值钱,我们自己倒确实会省钱,为了你的老板,赶快学技术吧!
最后我们欣赏一下代谢通路美图吧!